Análisis exploratorio de datos EDA con R


Luis Moreta

Fecha: 9 de septiembre de 2020

Descripción de los datos

Descripción de la base de datos

Inside Airbnb es un conjunto de herramientas y datos independientes y no comerciales que le permite explorar cómo se usa realmente Airbnb en ciudades de todo el mundo. La base de dato se obtiene específicamente de la ciudad de Amsterdam y contiene los Review de los diferentes hospedajes ofertados a través de la empresa, así como la descripción de cada hospedaje. Al analizar la información disponible públicamente sobre los listados de Airbnb de una ciudad, Inside Airbnb proporciona filtros y métricas clave para que pueda ver cómo se está utilizando Airbnb para competir con el mercado de la vivienda residencial.

Los datos fueron obtenidos de la siguiente dirección https://public.opendatasoft.com/explore/dataset/airbnb-listings/information

El problema y objetivo

Se desea entender cuales son las determinantes del precio y si estas están relacionados con la puntuación que dan los huéspedes, de igual forma se quiere investigar cuales son las características más comunes en las diferentes locaciones de hospedaje.

1. Relación entre la calificación del hospedaje y el precio

Se realiza un primer vistazo de las variables por separado.

2. Relación entre el tipo de habitación y el precio

3. Relación entre los tiempos de respuesta del host y el precio.

Se tiene cierta sospecha que un indicador de que una habitación es costosa es el esfuerzo que tiene su host en brindar un buen servicio, esto se puede ver reflejado en el tiempo de respuesta a la solicitud de hospedaje.

4. Relación entre el número de Reviews y el precio.

El número de Reviews se puede interpretar como la popularidad de cada alojamiento, entonces, se tiene la hipótesis de si el sitio es más popular tiene un mayor precio.

5. Relación entre el número de baños, camas y habitaciones y el precio.

En este literal exploramos la relación entre las diferentes áreas que tiene el alojamiento.

Conclusiones

Se observan diferentes comportamientos entre la relación de los precios con diferentes características del alojamiento, como resultados tenemos que el número de habitaciones, baños y camas parece tener una relación positiva con el precio, lo cual puede ser intuitivo pues con más camas el alojamiento puede albergar a más personas y también resulta ser más espacioso.

Se analiza el precio por el tipo de habitación y en este caso, los alojamientos que son casas independientes tienen mayores precios en promedio que los cuartos privados o los cuartos compartidos, de igual forma no existe muchos alojamientos que sean compartidos.

Como tercer punto vemos que tanto el número de Review o la velocidad de respuesta por parte del host no tiene mayor importancia en los precios, es decir que hay alojamientos de precios altos, medios y bajos que son populares, y de igual manera, la velocidad de respuesta es en promedio similar para los diferentes niveles de alojamiento.

Para terminar, se tenía la intuicín de la hipótesis que los alojamientos con mejores puntajes van a tener precios más elevados, sin embargo, y algo igual que con el número de reviews, no existe gran diferencia entre estas dos variables.

Como extensión para este análisis se podría sugerir un análisis de regresión lineal simple explorando más variables y también teniendo el conocimiento que hay ciertas variables que no parecen guardar una fuerte relación con el precio.